[Day 11] - 原來文章是這麼找到的：TF-IDF (1) - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 11

自我挑戰組

[Day 11] - 原來文章是這麼找到的：TF-IDF (1)

16th鐵人賽

211 瀏覽

昨天介紹了布林檢索，它的缺點在於只能找出和使用者提問相關的文檔，但並不能說明哪篇文檔的相關性更高，而今天要介紹的 TF-IDF 就可以解決這項問題。

TF-IDF ( Term Frequency - Inverse Document Frequency ) 是一種用於衡量單詞對於一份文檔重要程度的技術，它的做法是分為 TF 和 IDF 兩個部分計算，並將兩者相乘。

首先要介紹的是 TF ( Term Frequency )，看到它的名字就知道，TF 的作用是判斷某一個單詞出現在某一篇文檔的頻率，計算方式如下：

TF = ( 單詞在文檔中出現的次數 ) / ( 文檔中的總單詞數 )

那為什麼會需要計算這個東西呢？

想像一下有一百篇新聞擺在面前，如果想要快速找出和美國總統大選相關的新聞，就應該要去找 ”美國”、”總統”、”選舉”、”候選人” 等關鍵字出現很多次的文章吧。

計算 TF 的原因就在於，我們認為這個單詞在這篇文章中出現的次數越多，代表這個單詞對這篇文章越重要。

以這三篇文章為例：

doc1

This restaurant serves better pizza than the restaurant across the street because their pizza crust is crispier.
doc2

To make a perfect coffee, use freshly ground coffee beans and hot water, then add milk and sugar to taste. The coffee will be ready to enjoy.
doc3

On a stormy night, the wind howled, and the trees swayed as the wind grew stronger.

套用剛剛提到的計算方式，可以獲得以下結果：

TF(”pizza”, doc1) = 2 / 17

TF(”coffee”, doc2) = 3 / 27

TF(”wind”, doc3) = 2 / 16

可以看的出來，我所列出來的這三個單詞在他們各自的句子中出現的次數比其他單詞還高，代表他們在句子中具有重要的意義。

不過事情也不是那麼的絕對，以前幾天有介紹到的停用詞 ( Stop Word ) 為例，像是 a、the、and 等沒什麼意義的單詞在文章中無可避免的會出現很多次，但這並不代表他們對於這篇文章來說很重要，反而會造成 TF 計算出來的結果不好。

為了避免這種情況，我們需要使用 IDF 來抑制這個負面效果。

IDF ( Inverse Document Frequency ) 的想法是計算這個單詞有沒有出現在很多篇文章中，以此決定這個單詞重不重要，它的計算方式如下：

IDF = ( 文檔總數 ) / ( 包含該單詞的文檔數 )

有點抽象的話我們可以實際計算看看：

IDF(”pizza”) = 3 / 1

IDF(”a”) = 3 / 2

IDF(”the”) = 3 / 3

因為這三篇文章中只有 doc1 和 pizza 有關，所以它的 IDF 比較高，而三篇文章都有出現 the，代表這個單詞其實很常見到，並不是很重要。

最後，我們要做的事情就是把 TF 和 IDF 相乘，才會是完整的 TF-IDF 分數，我們可以用 doc1 為例子說明：

Term	TF	IDF	TF-IDF
This	1 / 17	3 / 1	0.176
restaurant	2 / 17	3 / 1	0.353
serve	1 / 17	3 / 1	0.176
better	1 / 17	3 / 1	0.176
pizza	2 / 17	3 / 1	0.353
than	1 / 17	3 / 1	0.176
the	2 / 17	3 / 3	0.118
…